Knowledge distillation is often used to transfer knowledge from a strong teacher model to a relatively weak student model. Traditional knowledge distillation methods include response-based methods and feature-based methods. Response-based methods are used the most widely but suffer from lower upper limit of model performance, while feature-based methods have constraints on the vocabularies and tokenizers. In this paper, we propose a tokenizer-free method liberal feature-based distillation (LEAD). LEAD aligns the distribution between teacher model and student model, which is effective, extendable, portable and has no requirements on vocabularies, tokenizer, or model architecture. Extensive experiments show the effectiveness of LEAD on several widely-used benchmarks, including MS MARCO Passage, TREC Passage 19, TREC Passage 20, MS MARCO Document, TREC Document 19 and TREC Document 20.
translated by 谷歌翻译
High-quality traffic flow generation is the core module in building simulators for autonomous driving. However, the majority of available simulators are incapable of replicating traffic patterns that accurately reflect the various features of real-world data while also simulating human-like reactive responses to the tested autopilot driving strategies. Taking one step forward to addressing such a problem, we propose Realistic Interactive TrAffic flow (RITA) as an integrated component of existing driving simulators to provide high-quality traffic flow for the evaluation and optimization of the tested driving strategies. RITA is developed with fidelity, diversity, and controllability in consideration, and consists of two core modules called RITABackend and RITAKit. RITABackend is built to support vehicle-wise control and provide traffic generation models from real-world datasets, while RITAKit is developed with easy-to-use interfaces for controllable traffic generation via RITABackend. We demonstrate RITA's capacity to create diversified and high-fidelity traffic simulations in several highly interactive highway scenarios. The experimental findings demonstrate that our produced RITA traffic flows meet all three design goals, hence enhancing the completeness of driving strategy evaluation. Moreover, we showcase the possibility for further improvement of baseline strategies through online fine-tuning with RITA traffic flows.
translated by 谷歌翻译
无人驾驶汽车(UAV)具有各种优势,但是它们的实际应用受其能源有限的影响。因此,管理其功耗很重要,并且建立相应的功耗模型也很重要。但是,大多数现有作品要么为固定翼无人机和单权无人机建立理论功耗模型,要么为无需严格的数学推导而为多旋转无人机提供启发式功耗模型。本文旨在为多旋转无人机建立理论功耗模型。具体而言,通过利用单旋风无人机与多机无人机之间的关系,得出了三个飞行状态的多旋转无人机的封闭形式消耗模型,即远南飞行,垂直上升和垂直下降。功耗条款。在此基础上,在三维(3-D)方案中,无人机的通用飞行功耗模型。通过使用DJI M210和DJI移动SDK在实际场景中制作的移动应用程序进行广泛的实验,并确认这些模型的正确性和有效性;此外,进行模拟以进一步研究转子数量对无人机的功耗的影响。拟议的功耗模型不仅揭示了多旋转无人机的功耗如何受到各种因素的影响,而且还为引入其他新型应用程序铺平了道路。
translated by 谷歌翻译
修剪技术可全面使用图像分类压缩卷积神经网络(CNN)。但是,大多数修剪方法需要一个经过良好训练的模型,以提供有用的支持参数,例如C1-核心,批处理值和梯度信息,如果预训练的模型的参数为,这可能会导致过滤器评估的不一致性不太优化。因此,我们提出了一种基于敏感性的方法,可以通过为原始模型增加额外的损害来评估每一层的重要性。由于准确性的性能取决于参数在所有层而不是单个参数中的分布,因此基于灵敏度的方法将对参数的更新具有鲁棒性。也就是说,我们可以获得对不完美训练和完全训练的模型之间每个卷积层的相似重要性评估。对于CIFAR-10上的VGG-16,即使原始模型仅接受50个时期训练,我们也可以对层的重要性进行相同的评估,并在对模型进行充分训练时的结果。然后,我们将通过量化的灵敏度从每一层中删除过滤器。我们基于敏感性的修剪框架在VGG-16,分别具有CIFAR-10,MNIST和CIFAR-100的VGG-16上有效验证。
translated by 谷歌翻译
基于深度学习的超分辨率(SR)近年来由于其高图像质量性能和广泛的应用方案而获得了极大的知名度。但是,先前的方法通常会遭受大量计算和巨大的功耗,这会导致实时推断的困难,尤其是在资源有限的平台(例如移动设备)上。为了减轻这种情况,我们建议使用自适应SR块进行深度搜索和每层宽度搜索,以进行深度搜索和每层宽度搜索。推理速度与SR损失一起直接将其带入具有高图像质量的SR模型,同​​时满足实时推理需求。借用了与编译器优化的速度模型在搜索过程中每次迭代中的移动设备上的速度,以预测具有各种宽度配置的SR块的推理潜伏期,以更快地收敛。通过提出的框架,我们在移动平台的GPU/DSP上实现了实时SR推断,以实现具有竞争性SR性能的720p分辨率(三星Galaxy S21)。
translated by 谷歌翻译
多视图点云注册在3D重建中至关重要。由于从不同角度捕获的点云之间存在密切的连接,因此如果正确利用这些连接,则可以增强注册性能。因此,本文将注册问题建模为多任务优化,并提出了一种新颖的双通道知识共享机制,以有效,有效地解决问题。多视点云注册作为多任务优化的建模是双重的。通过同时考虑两个点云的局部精度以及所涉及的所有点云带来的全局一致性,得出了具有自适应阈值的健身函数。还定义了共同进化搜索过程的框架,以同时优化属于相关任务的多个健身函数。为了提高解决方案质量和收敛速度,拟议的双通道知识共享机制发挥了作用。任务内的知识共享引入了求解更简单的帮助任务,并且在辅助任务和原始任务上共享有用的信息,从而加速了搜索过程。任务间知识共享探讨了原始任务中埋葬的共同点,旨在防止任务陷入本地Optima。在模型对象以及场景点云上进行的综合实验显示了所提出的方法的功效。
translated by 谷歌翻译
预先接受的语言模型实现了最先进的导致各种自然语言处理(NLP)任务。 GPT-3表明,缩放预先训练的语言模型可以进一步利用它们的巨大潜力。最近提出了一个名为Ernie 3.0的统一框架,以预先培训大型知识增强型号,并培训了具有10亿参数的模型。 Ernie 3.0在各种NLP任务上表现出最先进的模型。为了探讨缩放的表现,我们培养了百卢比的3.0泰坦参数型号,在PaddlePaddle平台上有高达260亿参数的泰坦。此外,我们设计了一种自我监督的对抗性损失和可控语言建模损失,以使ERNIE 3.0 TITAN产生可信和可控的文本。为了减少计算开销和碳排放,我们向Ernie 3.0泰坦提出了一个在线蒸馏框架,教师模型将同时教授学生和培训。埃塞尼3.0泰坦是迄今为止最大的中国密集预训练模型。经验结果表明,Ernie 3.0泰坦在68个NLP数据集中优于最先进的模型。
translated by 谷歌翻译
创建视觉布局是图形设计的重要步骤。当我们寻求比例和多样化的视觉设计时,这种布局的自动生成很重要。在自动布局的作品上,专注于无条件生成,其中模型在忽略用户需要进行特定问题的同时生成布局。为了提前有条件布局,我们介绍了BLT,双向布局变压器。 BLT与自回归解码不同,因为它首先生成满足用户输入的布局,然后迭代地改进布局。我们验证了具有各种保真度量的多个基准测试模型。我们的结果表明,最先进的布局变压器模型的两个主要进步。首先,我们的模型授权布局变压器来满足可控布局的制作。其次,我们的模型削减了自回归解码的线性推理时间达到恒定的复杂度,从而在推理时间以制定布局实现4x-10x的加速。
translated by 谷歌翻译
生成自然语言指令的图像是一个有趣但高度挑战的任务。我们通过将reverting剪辑表示与现成的图像发生器(GAN)的功率组合来实现文本到图像生成,在GaN的潜在空间中优化,找到与给定输入文本实现最大剪辑分数的图像。与传统方法相比,从划痕开始从文本到图像培训生成模型,剪辑+ GaN方法是无训练,零射击,可以用不同的发电机轻松定制。然而,在GaN空间中优化剪辑得分投射了一个高度挑战的优化问题,以及诸如ADAM的现成优化器,不能产生满足结果。在这项工作中,我们提出了一个FusedReam管道,它通过三个关键技术改进了剪辑+ GaN方法:1)通过在图像上引入随机增强来强制剪辑目标的Augclip分数。 2)优化的新颖初始化和过参数化策略,允许我们有效地导航GaN空间中的非凸景观。 3)通过利用新型双级优化制剂的组合生成技术,可以构成多个图像以扩展GaN空间并克服数据偏置。当由不同的输入文本推广时,FusedReam可以产生具有不同对象,背景,艺术风格的高质量图像,甚至没有出现在我们使用的GaN的训练数据中的新的反事概念。定量地,由FusedReam生成的图像在MS Coco DataSet上产生顶级初始成绩和FID分数,而无需额外的架构设计或培训。我们的代码公开可用于\ url {https:/github.com/gnobitab/fusedream}。
translated by 谷歌翻译
最近,最大化的互信息是一种强大的无监测图表表示学习的方法。现有方法通常有效地从拓扑视图中捕获信息但忽略特征视图。为了规避这个问题,我们通过利用功能和拓扑视图利用互信息最大化提出了一种新的方法。具体地,我们首先利用多视图表示学习模块来更好地捕获跨图形上的特征和拓扑视图的本地和全局信息内容。为了模拟由特征和拓扑空间共享的信息,我们使用相互信息最大化和重建损耗最小化开发公共表示学习模块。要明确鼓励图形表示之间的多样性在相同的视图中,我们还引入了一个分歧正则化,以扩大同一视图之间的表示之间的距离。合成和实际数据集的实验证明了集成功能和拓扑视图的有效性。特别是,与先前的监督方法相比,我们所提出的方法可以在无监督的代表和线性评估协议下实现可比或甚至更好的性能。
translated by 谷歌翻译